视频问题回答是一项具有挑战性的任务,需要共同理解语言输入,单个视频帧中的视觉信息以及视频中发生的事件的时间信息。在本文中,我们提出了一种新颖的多流视频编码器,用于视频问题回答,它使用多个视频输入和一种新的视频文本迭代迭代式共同指定方法来回答与视频相关的各种问题。我们在几个数据集上进行了实验评估该模型,例如MSRVTT-QA,MSVD-QA,IVQA,超过了大幅度的先前最新时间。同时,我们的模型将所需的Gflops从150-360减少到只有67,从而产生了高效的视频答案模型。
translated by 谷歌翻译